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Рассматриваются один из подходов анализа структуры многомерных данных методом локальной геометрии. Обосновывается 
разработка интеллектуальных систем, способных адаптироваться к конкретным прикладным задачам, учитывать особенности 
исследуемых данных и строить вычислительный процесс в зависимости от полученных результатов. 


Введение 

Одним из методов получения наглядного визу- 
ального представления о логических закономер- 
ностях в структуре данных является метод локаль- 
ной геометрии. В отличии от традиционных мето- 
дов анализа многомерных данных, которые ис- 
пользуют представление об общем пространстве 
признаков и об одинаковой мере сходства и разли- 
чия, в методе локальной геометрии каждый объект 
рассматривается как самостоятельный классифи- 
катор, и для него строится собственное (локальное) 
пространство признаков, в котором определяется 
индивидуальная мера сходства и различия с други- 
ми объектами [ 1 ] . 


Использование метода локальной геометрии 
для обнаружения закономерностей в базах данных 
позволяет получать следующие преимущества, ука- 
занные в [1]: 1) достаточно простое построение 
ІР...ТНЕК правил в данных; 2) устойчивость зако- 
номерностей проверяется с помощью множества 
фальсификаторов; 3) выявляется структура логи- 
ческих закономерностей в данных; 4) достигаются 
минимальные ошибки при решении задач класси- 
фикации, распознавания образов и прогнозирова- 
ния. 

Анализ геометрической структуры данных ме- 
тодом локальной геометрии не имеет готовых шаб- 
лонов и реализуется известными методами и алго- 
ритмами, использующие геометрическое описание 

19 


Известия Томского политехнического университета. 2003. Т. 306. № 3 


данных. Например, для реализации этих методов 
можно воспользоваться математическими и графи- 
ческими средствами статистических пакетов 
§ШОгарЫс8, Вшііміса, 8Р88 и др. Однако примене- 
ние данных пакетов сопряжено с рядом труднос- 
тей: они англоязычны, требуют знаний статисти- 
ческих методов. Следует отметить и тот факт, что 
сложность структуры экспериментальных данных 
и разноплановость задач, например, при проведе- 
нии медико-психологических исследований, суще- 
ственно затрудняют применение вышеупомянутых 
пакетов анализа данных. 

Поэтому разработка интеллектуальных систем, 
способных адаптироваться к конкретным приклад- 
ным задачам, учитывать особенности исследуемых 
данных и строить вычислительный процесс в зави- 
симости от полученных результатов (например, 
разведочным анализом данных) является актуаль- 
ной. Исследователю, работающему с такой интел- 
лектуальной системой, становится доступным 
инструментарий, который позволит в интерактив- 
ном режиме изучить закономерности, имеющиеся 
в структуре исходных данных. 

Разрабатываемая нами система интеллектуаль- 
ного анализа данных предполагает: 

- самостоятельно получать новые знания об осо- 
бенностях объектов исследования; 

- учитывать локальные особенности (опора на 
прецедент) в каждой конкретной точке прост- 
ранств решений; 

- изучать структуру исходных многомерных дан- 
ных с помощью отображения в двумерное 
пространство; 

- исключать из дальнейшего исследования неин- 
формативные признаки; 

- выбирать методы обработки информации в 
процессе решения задачи; 

- дать возможность исследователю самостоятель- 
но определять последовательность этапов ана- 
лиза диагностической информации на базе уже 
достигнутых результатов. 

Такой процесс непрерывного взаимодействия 
исследователя со своим "интеллектуальным" по- 
мощником создает предпосылки для формирова- 
ния своеобразного "гибридного" интеллекта, кото- 
рый обеспечивает эффективное использование 
достоинств объектов разной физической природы 
при взаимной компенсации их недостатков [2]. 
Кроме того, данный подход позволяет осущес- 
твлять контроль правильности ввода данных, пост- 
роение решающих правил, формирование баз дан- 
ных и знаний. 

Основные подходы к анализу структуры 
многомерных данных 

Реальные данные экспериментов в неструкту- 
рированных прикладных областях знаний, как 
правило: 


1) не имеют сведений о законах и параметрах 
распределений, 

2) для них ничего не известно о степени предста- 
вительности выборки, 

3) неоднородны и разнотипны, 

4) имеют пробелы и ошибки, шумящие, неинфор- 
мативные признаки, 

5) отличаются высокой размерностью признако- 
вого пространства. 

Поэтому применение точных методов представ- 
ляется не целесообразным. 

В целом, следует отметить, что сейчас достаточ- 
но развиты как параметрические, так и непарамет- 
рические методы анализа структуры данных, в том 
числе и для задач сокращения размерности и клас- 
сификации [1-6]. Однако, разработка интеллекту- 
альных систем, способных анализировать сложную 
структуру экспериментальных данных неструкту- 
рированных областей знаний, а также формиро- 
вать и оптимизировать базу знаний до сих пор ос- 
тается актуальной [2, 4]. 

Выбор математического аппарата и формализа- 
ция знаний самым существенным образом зависят 
от проблемной области. Именно адекватность ис- 
пользуемой математической модели реальному по- 
ложению вещей, корректность представления зна- 
ний в рамках выбранной модели и эффективность 
применяемых математических преобразований оп- 
ределяют в конечном итоге оперативность и каче- 
ство решений, которые будут приниматься по ре- 
зультатам распознавания произвольных объектов 
из данной проблемной области. 

Интерактивность при выполнении задач анали- 
за структуры многомерных данных связана с пере- 
дачей исследователю ряда трудно формализуемых 
или технически сложно реализуемых операций. 
При этом мощность вычислительной техники рас- 
ходуется как на выполнение отдельных этапов об- 
работки (в соответствии с указаниями пользовате- 
ля), так и на наглядное представление информации 
исследователю на этапах ее изучения, выработке 
решений по дальнейшей обработке и интерпрета- 
ции результатов. 

В пользу режима интерактивного взаимодей- 
ствия приведем следующие факты. 

Во-первых, исследователю заранее не известно, 
какая математическая модель наиболее подходит 
для решаемой задачи, и выбор одного из известных 
на сегодня стандартных пакетов прикладных прог- 
рамм обработки данных не располагает "всеобщим" 
методом построения адекватной всем задачам рас- 
познавания математической модели. Существует 
набор методов решения задач анализа данных, не 
связанных однозначно друг с другом. 

Во-вторых, основная трудность проведения 
компьютерного анализа экспериментальной ин- 
формации состоит в выборе способа описания ис- 
ходных данных, методов их упорядочения и клас- 
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сификации, а также при необходимости получения 
оценок параметров распределения этих данных. 
Точность таких оценок, их устойчивость и прогнос- 
тическая эффективность в значительной мере за- 
висят от того, по отношению к какому множеству 
данных эти оценки получены. Поскольку данные, 
например, медицинских и психодиагностических 
исследований часто представляют собой относи- 
тельно малые по величине и нерепрезентативные 
обучающие выборки, то применение параметри- 
ческих методов статистики для анализа таких дан- 
ных исключается, а использование известных ме- 
тодов группировки данных (методы таксономии, 
кластерный анализ, факторный анализ и др.) огра- 
ничивается. 

В-третьих, известно, что человек имеет несом- 
ненные преимущества перед алгоритмами при рас- 
познавании некоторых видов структур - кластеров, 
однородных групп, когда размерность простран- 
ства описания не превышает трех. А, именно, алго- 
ритмы автоматической классификации не могут 
правильно разделить исходное множество на груп- 
пы при наличии точек соприкосновения и частич- 
ного перекрытия групп, при объединении в одном 
кластере нескольких удаленных друг от друга групп 
и при сложной форме кластеров. 

В-четвертых, полученные экспериментальные 
данные всегда сопровождаются искажениями, выз- 
ванными шумами и помехами, которые легко "сби- 
вают" алгоритмы автоматической классификации 
и идентификации. Эти искажения ограничивают 
также и возможности человека при самостоятель- 
ном анализе данных. В интерактивном режиме вза- 
имодействия реализуются операции и средства для 
очищения информации от шума. 

В данной работе структура многомерных дан- 
ных анализируется с использованием методов, ос- 
нованных на геометрическом представлении дан- 
ных, в виде точечных скоплений в двумерном 
пространстве описаний. Для визуализации данных 
воспользуемся так называемыми бійапі-алгорит- 
мами [2-4, 6, 9, 10], которые используют в качестве 
меры упорядочения значения взаимных расстоя- 
ний между точками-образами. 

Таким образом, задачи анализа многомерных 
данных могут быть сведены к трем основным: 

- классификации исходных данных, 

- выбору информативных признаков, 

- идентификации неизвестных наблюдений. 

Все эти задачи можно представить как вариан- 
ты задачи группирования, которые в режиме инте- 
рактивного взаимодействия решаются с позиций 
принципа визуального группирования [1, 4, 6]. 

Если определить классификацию как объеди- 
нение элементов выборки в подмножества с по- 
мощью того или иного правила (критерия), кото- 
рая позволяет выявить схожие элементы, то она, по 
существу, совпадает с задачей упорядочения эле- 
ментов, близких по значениям признаков. 


В режиме интерактивного взаимодействия в со- 
ответствии с принципом визуального группирова- 
ния основным критерием для объединения (или 
разделения) элементов выборки в одну группу яв- 
ляется близкое расположение (или удаление) то- 
чек-образов этих элементов друг к другу. Формиро- 
вание групп, определение конфигурации области и 
количества включаемых в группу точек целиком 
зависит от мнения исследователя. 

Задача выбора информативных признаков сво- 
дится к задаче группирования (если выбор инфор- 
мативных признаков понимать как поиск группы 
признаков, сходных по своему проявлению на эле- 
ментах выборки) с последующей оценкой отдель- 
ных признаков или их групп на сохранность струк- 
туры упорядочения, полученной на полном переч- 
не признаков. 

Исключив из описания выборки признак или 
группу признаков и применив алгоритм визуализа- 
ции, можно получить отображение структуры вы- 
борки в виде точечного скопления. Сравнив полу- 
ченные изображения, исследователь принимает 
решение об информативности группы признаков, 
т.е. о сохранении или исключении этих признаков 
из описания выборки. 

При решении задачи распознавания предпола- 
гается отнесение неизвестного наблюдения к одно- 
му из известных классов, на которые разбита ис- 
ходная выборка. Если в качестве основного прин- 
ципа для построения стратегии решения этой зада- 
чи взять принцип визуального группирования, то и 
эту задачу можно свести к задаче группирования. 
Ее можно определить как упорядочение совмест- 
ной выборки, включающей исходную выборку и 
неизвестное наблюдение. Полученное изображе- 
ние точечного скопления предъявляется исследо- 
вателю, а он решает, к какой из групп следует от- 
нести неизвестный элемент. Естественно, что это 
решение основано на оценке близости (удаленнос- 
ти) расположения точки-образа вновь введенного 
элемента к точечному скоплению одной из групп (в 
общем случае возможно и другое решение - объект 
не может быть отнесен ни к одной из групп). 

Анализ структуры многомерных данных 

методом локальной геометрии 

Анализ структуры многомерных данных с ис- 
пользованием метода локальной геометрии базиру- 
ется на комбинированном применении методов 
линейной алгебры и интерактивной графики. 

Постановка задачи не нова и содержится в [1]. 
Схема анализа структуры многомерных данных, 
позволяющая осуществить поиск логических зако- 
номерностей в локальном пространстве признаков 
заключается в следующем. 

На первом этапе с целью унификации призна- 
кового пространства осуществляется преобразова- 
ние исходных признаков в бинарные или Л-знач- 
ные признаки посредством модифицированного 
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нами алгоритма адаптивного кодирования призна- 
кового пространства. Преобразование основано на 
предположении о том, что признаки, можно диск- 
ретизировать таким образом, чтобы отношение от- 
носительных частот встречаемости объектов обуча- 
ющих выборок двух классов в выделенных интер- 
валах могло быть аппроксимировано одноэкстре- 
мальной или монотонной функцией. Это позволит, 
в зависимости от типа признака, каждому выделен- 
ному интервалу присвоить кодовое число, или в 
случае преобразования в бинарные признаки, ис- 
пользовать выделенные интервалы в качестве са- 
мостоятельных признаков [7, 8]. 

На втором этапе с целью анализа структуры 
многомерных данных предлагается реализовать 
подход, предложенный в [1]. 

Для равномерного распределения объектов ис- 
следования в исходном пространстве признаков 
вводятся в альтернативные классы "шумящие" объ- 
екты, представляющие собой множество фальси- 
фикаторов, "столкновение" с которыми способ- 
ствует лучшему проявлению устойчивых логичес- 
ких закономерностей в данных. 

Для определения наиболее перспективного 
объекта, относительно которого строится локаль- 
ное пространство признаков, данные отображают- 
ся на плоскости двух первых главных компонент. 
Выбор последующих центральных объектов ведет- 
ся в соответствии с целью исследования, напри- 
мер, в качестве цели может быть выбрано изучение 
объектов, расположенных за границами выделяю- 
щихся точечных скоплений. В ходе исследования 
цели могут корректироваться с учетом обстоя- 
тельств текущего анализа. 


После центрирования данных относительно 
выбранного объекта применяют один из методов 
определения локальных взвешенных метрик. В ка- 
честве метода определения локальной взвешенной 
метрики, например, могут быть использованы ме- 
тоды конструирования линейных диагностических 
решающих правил, факторный анализ, методы 
эволюционного моделирования, а также ряд других 
методов [2-4, 9, 10]. Оценивание построенных ло- 
кальных взвешенных метрик производится по сле- 
дующему критерию [1] 


2У (х,хД 


= тіп, 


где Ес/(х,х і) - суммарное расстояние от объекта до 
объектов своего класса, а Т,с1'(х,х к ) - суммарное 
расстояние объекта х до объектов других классов; 
либо посредством визуального анализа гистограмм 
распределения расстояний от объектов обучающей 
выборки до исследуемого объекта. 

Средствами интерактивной графики, осущес- 
твляемой после визуализации данных, из анализа 


исключаются наиболее удаленные от нулевой от- 
метки новой оси объекты, признаки с отрицатель- 
ными весовыми коэффициентами (для сохранения 
метрических соотношений), объекты, имеющие 
равные расстояния с объектами других классов. 

После того, как построены локальные взвешен- 
ные метрики (линейные классификаторы), необхо- 
димо изучить взаимодействие данных классифика- 
торов. Для этих целей можно воспользоваться ме- 
тодами построения коллективных решающих пра- 
вил. После проверки нарушений метрических от- 
ношений в матрице расстояний, которые могут 
возникнуть из-за различия пространств описания 
локальных классификаторов, исследование струк- 
туры матрицы расстояний может производиться 
методами и алгоритмами, использующими геомет- 
рическое описание данных. 

При выборе решающего логического правила 
из системы диагностических правил приоритет от- 
дается правилу, обладающему наибольшей эффек- 
тивностью при распознавании исследуемых объек- 
тов. 

Анализ структуры многомерных данных с при- 
менением локальной геометрии позволяет оста- 
вить в описании только то, что действительно важ- 
но для отражения сходства и различия с другими 
объектами. Это обеспечивает каждому объекту, как 
представителю своего класса, максимально воз- 
можную "сферу действия", чего нельзя достигнуть 
при построении общего пространства признаков и 
использовании одинаковой метрики для всех объ- 
ектов. 

Структура интерактивной системы 

интеллектуального анализа многомерных данных 

Разрабатываемая интерактивная система ин- 
теллектуального анализа данных программно реа- 
лизуется с использованием инструментального 
средства Вогіапб БефЫ 5.0 в среде \Уіпс1о\ѵ8 
95/98/2000/1ЧТ. Структура системы приведена на 
рисунке. 



Рисунок. Структура системы интеллектуального анализа 
данных 
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Заключение 

Предложенный метод анализа структуры мно- 
гомерных данных позволит: сделать более понят- 
ными критерии и принципы построения правил 
вхождения объектов в определенные классы экви- 
валентности; минимизировать ошибки при приня- 
тии решений; находить скрытые в больших объе- 
мах данных закономерности в структуре данных, 
зачастую не формулируемые экспертом, и попол- 
нять ими базу знаний системы; получать результи- 
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